將資料集中的資料點分為不同群集的方法,群集之間形成一種層次結構,代表可以查看不同層次的群集結構,從單個資料點開始,慢慢合併成更大的群集,或從整個資料集開始,慢慢分裂成更小的群集
計算兩個群集之間所有成對樣本之間的距離,選擇最小的成對樣本距離
偏向於將相似的樣本聚在一起,可能會產生長細的群集
群集 A 與群集 B 之間的距離:
d(A,B) 表示群集 A 與群集 B 之間的距離
distance(x,y) 表示樣本 x 與樣本 y 之間的距離
計算兩個群組之間所有成對樣本之間的距離,選擇最大的成對樣本距離
偏向於將相似度較低的樣本聚在一起,產生較平衡的群集大小
群集 A 與群集 B 之間的距離:
計算兩個群組之間所有成對樣本之間的距離,取這些距離的平均值
是一種平衡的方法,通常可以得到比較好的結果
群集 A 與群集 B 之間的距離:
https://pyecontech.com/2020/06/12/hierarchical_clustering/
https://zh.wikipedia.org/zh-tw/%E5%B1%82%E6%AC%A1%E8%81%9A%E7%B1%BB